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摘 要 为 得 到 一 个 质量 恨 好 的 大 型 题库 ， 进 行 传统 形式 项 目 开 发 所 耗费 的 大 量 人 力 物力 制 


约 着 目前 计算 机 化 自 适 应 测验 的 发 展 与 运用 ， 而 基于 最 新 自然 语言 处 理 技术 的 自动 项 目 
成 有 望 解决 这 一 难题 。 随 着 基于 Transformer 架构 的 生成 式 预 训练 模型 的 进步 ， 根 据 特定 
量 目标 (尤其 是 非 认 知 任务 )， 自 动 生成 测验 项 目 并 以 此 为 基础 建立 计算 机 自 适应 题库 成 
为 可 能 。 本 研究 旨 在 利用 最 新 版 本 的 ChatGPT 生成 大 量 中 文 版 测量 情绪 稳定 
通过 单 维 性 检验 、IRT 模型 选择 、 项 目 分析 、 题 库 质量 分 析 等 题库 构建 步 又 以 及 模拟 的 计 


算 机 化 自 适 应 测验 ， 探 索 这 些 项 目 对 于 计算 机 化 自 适应 测验 


Em 


测量 


情绪 稳定 性 项 目 进 行 性 能 对 比 ， 最 终 形成 了 一 个 质量 良好 的 4 


关键 词 计算 机 化 自 适 应 测验 ， 自 动 项 目 生 成 ， 自 然 语 言 处 理 
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Abstract 
To obtain a high-quality large-scale item bank, the extensive manpower and resources required for 
traditional project development have been constraining the development and application of 
computerized adaptive testing. However, the automatic item generation, based on the latest natural 
language processing technology holds promise in addressing this challenge. With the advancements 
in generative pre-trained models based on the Transformer architecture, the generation of items 
tailored to specific measurement objectives (especially non-cognitive tasks) becomes feasible. This 
study aimed to utilize ChatGPT to generate a large number of Chinese version personality items 
measuring emotional stability and to establish a computerized adaptive item bank based on this 
premise. 
We utilized ChatGPT based on GPT-4 Turbo to generate 114 items measuring emotional stability. 
Following expert review, 75 items were retained and formed the GPT item bank, while 42 widely- 
used items were selected to form the classic item bank. Testing was conducted on the 
aforementioned items, yielding 479 valid participants. Additionally, sample data from two 
separately administered measures, CBF-PI-B and BFI-2, were going to be used for subsequent 
cross-sample reliability comparisons. Procedures for item bank construction including 
unidimensionality test, IRT model selection, item analysis, and item bank quality analysis, as well 
as simulated computerized adaptive testing, were employed to assess the quality and CAT 
performance of the item bank. 
After the above analysis steps, it was found that all items in the classic item bank and the GPT item 


bank passed the unidimensionality test, showing no differential item functioning, and had good 
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discrimination parameters and reasonable difficulty distribution. Both item banks provided high test 
information and marginal reliability for most trait levels of the examinees, with low measurement 
error. The overall item bank formed by combining all items remained of good quality. Simulation 
results of computerized adaptive testing showed that all three item banks achieved high validity 
with fewer items compared to traditional tests for the same level of precision. Under the same testing 
length, GPT item bank exhibited higher reliability and demonstrated stability across samples. 
Additionally, comparison revealed that the CAT performance of the GPT item bank even exceeded 
that of the classic item bank, while the overall item bank performance was slightly better than that 
of the GPT item bank. 

This study innovatively explores the development of a computerized adaptive item bank using the 
latest version of ChatGPT, validating the feasibility of this user-friendly project generation tool. 
Through comparison with previous research results, it reconfirms the excellent quality of projects 
generated by GPT-4. The study showcases the immense potential and possibilities of large language 
models in project development, particularly in the creation of large-scale item banks, while also 


indicating at a shift in the responsibilities of psychologists in future project development. 
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可 以 在 测试 过 程 ， 


机 化 自 适应 测验 (Computerized Adaptive Test, CAT) 是 一 种 基于 计算 机 的 测试 方法 ， 
根据 受 测 者 的 作答 行为 匹配 出 最 适合 其 作答 的 项 目 ， 从 而 提高 测试 的 效 


率 和 得 分 的 有 效 性 (Fliege et al., 2005; Jiao & Lissitz, 2020). CAT 相 较 于 基于 经 典 测量 理论 


(Classical Test Theory, CTT) 的 传统 测验 ， 一 方面 使 受 测 者 不 再 需要 作 
在 提高 测量 效率 的 同时 减少 了 其 认 知 负担 ， 避 免 了 因 
因 材 施 测 ”， 减少 了 因 项 目 难度 与 受 测 者 特质 水 平 相差 太 大 


准确 性 降低 ; 


而 造成 的 测量 误差 。 即 使 每 位 受 测 者 测验 项 目 不 同 ， 依 然 能 够 实现 作答 结 


to ZEIRT 中 ， 只 要 所 有 项 目 


是 因为 CAT 


男 一 方面 实现 了 “ 


以 项 目 反 应 理论 (tem Response Theory, IRT) 为 基 而 


的 参数 标定 在 同一 个 量 尺 上 ， 那 么 即使 作答 的 项 
的 每 位 受 测 者 的 能 力 值 “特质 水 平 ) 也 是 可 比较 的 。 因 
目 组 成 的 题库 便 是 CAT 的 基本 前 提 ， 而 为 了 实现 这 点 ， 既 要 求 开 发 者 在 


于 同一 尺度 上 的 项 


答 完 量 表 的 所 有 项 目 ， 


长 时 间 测试 造成 的 无 聊 感 而 导致 测验 


初期 收集 到 大 量 项 目 并 i 
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行 大 规模 施 测 来 获得 稳定 的 项 


需要 在 后 续 使 用 过 程 中 ， 定 期 管理 和 补充 题库 ， 如 控制 曝光 率 过 


E 度 不 同 ， 根 据 作答 结果 估计 出 
此 ， 由 存在 共同 测量 目标 且 参 数 处 


i= 


果 的 可 比 性 ， 则 


目 参 数 ， 以 此 构建 最 初 的 题库 ， 又 


[可 


的 项 目 ， 淘 汰 质量 欠 佳 


的 项 目 等 。 由 于 传统 的 项 目 开发 往往 依赖 于 相关 领域 的 专家 ， 且 需要 耗费 大 量 的 人 力 物力 


与 财力 ， 


因此 建立 一 个 包含 


: 富 项 目 且 能 不 断 更 新 的 题库 是 人 


大 重要 瓶颈 (Gierl & Haladyna, 2013; Gierl & Lai, 2018). 


为 了 解决 这 一 难题 ， 


为 有 非常 广阔 的 前 景 (Hommel et al., 2022). Gierl 与 Lai(2018) 将 AIG 总 


juni 


家 开发 项 目的 模板 ， 该 模板 明确 了 认 知 模型 ， 


自动 项 目 生 成 (Automatic Item Generation, AIG) 与 CAT 的 


测验 主题 领域 的 专家 (subject-matter expert, SME) 使 用 认 知 模型 (一 种 强调 解 1 


内 问题 所 需 的 知识 、 技 能 和 能 力 的 表征 ) 组 织 和 构建 项 目 生成 所 需 的 内 容 ; 


模板 中 该 位 置 的 具体 内 容 来 生成 项 目 


; 最 后 由 


到 模板 当 ' 


1 是 通过 计算 机 人 入 


的 内 容 可 以 放置 的 位 置 ， 使 得 能 够 


法 ， 将 认 知 模型 


1| 约 目前 CAT 发 展 与 运用 的 一 


结合 被 认 


结 为 3 个 步骤 ， 首 先 


， 以 及 通过 蔡 换 内 容 来 生成 新 项 目 。 目 前 AIG 已 被 大 量 研 究 者 运用 


下 的 测验 开发 中 (Gierl et al., 2012; Gierl & Haladyna, 2013; Lai et al., 2016; Kurdi et al., 2020), 


尽管 这 种 基于 模板 的 AIG 可 以 生成 大 量 认 知 测试 的 项 目 ， 但 并 不 太 适 用 于 非 认 知 的 测验 ， 
如 心理 测验 中 常见 的 人 格 测试 ， 这 些 测试 的 项 目 往往 有 更 复杂 的 语义 、 情 境 和 细微 的 差别 


(Hernandez & Nie, 2022; Hommel et al., 2022; Lee et al., 2023). UJ BFI-2 中 文 版 (Zhang et al., 


2022) 中 神经 质 维度 的 “我 是 一 个 能 够 控制 自己 的 情 
或 “情绪 ”被 视 为 模板 中 可 替换 的 词 ， 那 么 有 意义 的 蔡 换 对 象 届 指 可 数 ， 


近义词 玲 换 后 产生 的 新 项 目的 作用 十 分 有 限 ， 并 限 和 


的 人 ”这 一 项 目 为 例 ， 如 果 “ 控 人 


^ 


i 
X 


采用 同义词 或 


捉 了 整个 量 表 从 不 同情 境 下 测量 神经 质 


的 能 力 。 所 幸 的 是 ， 随 着 自然 语言 处 理 (natural language processing, NLP) 技 术 的 发 展 ， 不 断 


Hommel et al., 2022; Gótz et al., 2023; Lee et al., 2023). 


NLP 是 人 工 智 能 (Artificial Intelligence, AT) 3853: 7] 


Ff 发 量化 模型 


有 研究 者 尝试 运用 算法 来 自动 生成 非 认 知 的 项 目 (Von Davier, 2018; Hernandez & Nie, 2022; 


来 让 计算 机 理解 、 分 析 


和 生成 人 类 语言 的 一 个 子 领域 (Goldberg, 2017; Lee et al., 2023)。 随 着 神经 网 络 〈 一 种 模拟 生 


物 神经 网 络 的 计算 模型 ， 能 将 输入 的 数据 在 网 络 中 


出 ; Goldberg, 2017) 的 引入 ，NLP 的 语言 模型 取得 了 巨大 的 进展 (Gatz et al., 2023). 


据 给 定 的 映射 进行 连续 的 转化 后 再 输 


Von(2018) 便 开创 性 地 将 基于 当时 最 先进 的 长 短期 记忆 (long short-term memory, LSTM) 网 络 


的 语言 模型 应 用 于 非 认 知 项 目的 AIG， 但 该 技术 只 能 模仿 示例 项 目 
特定 的 目标 概念 生成 项 目 ， 并 存在 计算 量 极 大 、 难 以 妇 


限 (Hernandez & Nie, 2022; Hommel et al., 2022). J 


学 习 的 模型 ， 即 通过 有 标记 的 输入 《例如 一 部 分 邮 伯 


的 语法 结构 ， 无 法 根据 
保持 项 目 语法 的 正确 性 等 其 他 局 


被 标记 为 垃圾 邮件 ， 


E LSTM 是 一 和 


基于 监督 机 器 


T 其 他 不 是 ) 进 


使 用 AIG 的 原因 之 一 (Goldberg, 2017; Lee etal.,2023)。 因 


构 的 生成 式 预 训 练 模型 (Generative Pre-trained, GPT) 及 


受到 了 利用 AIG 生成 非 认 知 项 目的 研究 者 的 青睐 。 


行 训练 ， 以 此 使 模型 逐渐 学 习 如 何 正确 预测 新 的 输入 的 标签 ， 


因此 需要 大 量 有 人 工 标注 的 


样本 数据 进行 模型 训练 ， 然 而 大 量 良 好 的 样本 项 目 在 实际 中 往往 是 难以 获得 的 ， 这 也 正 是 


任意 单词 与 序列 中 其 他 单词 进行 交互 ， 从 而 使 每 个 单词 
信息 ， 这 让 Transformer 不 再 需要 同 先 前 的 循环 模型 〈 如 


单词 ， 而 是 能 通过 数学 计算 把 握 单 词 间 的 微妙 联系 ， 通 过 关键 的 


(具体 的 数学 原理 可 以 参见 Vaswani et al., 2017); 


序列 中 的 不 同 单词 ， 相 较 于 循环 模型 ， 减 少 了 计算 
可 能 (G6tz et al., 2023)。GPT 正 是 以 Transformer 的 解码 器 为 基础 开发 而 来 的 ， 即 一 种 自 回 归 


OpenAI 发 布 的 基于 Transformer 架 
和 迭代 版 本 展现 出 了 优越 性 能 ， 使 其 


自 注 意 力 机 制 是 Transformer 一 大 特点 ， 该 机 制 能 将 一 个 输入 序列 《〈 例 如 一 句 话 ) 中 的 


LSTM) —# 


出 包含 了 与 其 他 单词 间 关 系 的 


储存 该 单词 前 的 所 有 
下文 信 息 来 预测 内 容 


7 TH] Transformer 可 以 并 行 处 理 文本 
让 训练 更 大 、 人 性 能 更 强 的 模型 成 为 


模型 ， 仅 使 用 序列 中 前 n 个 单词 的 信息 (此 时 第 n 个 单词 后 的 信息 被 诞 拖 了 ) 预测 第 nl 
个 单词 ， 接 着 将 文本 中 实际 的 n+l 个 单词 与 预测 的 单词 进行 比 对 从 而 训练 模型 ， 简 单 来 说 


就 是 通过 文本 中 的 上 文 信息 来 预测 下 文 信息 以 此 循环 直至 完成 整个 文本 序列 。 这 种 自 回归 
# 式 已 被 证 明 相 较 于 同时 通过 上 下 文 信息 来 推断 中 间 某 个 单词 的 “ 完 形 填空 ”形式 ， 更 适 
合 应 用 于 文本 生成 领域 (Hommel et al., 2022)。 作 为 预 训练 模型 ，GPT-3 包含 1750 亿 个 参数 ， 
并 在 海量 文本 数据 中 进行 了 训练 (Brown et al, 2020)， 而 使 用 者 可 以 仅 通 过 几 个 例子 (Few- 
Shot， 一 般 取 10-1000 来 让 模型 执行 特定 的 任务 〈 例 如 生成 某 种 人 格 的 测验 项 目 )， 不 再 需 
要 大 量 人 工 标注 的 训练 数据 或 针对 特定 任务 对 模型 进行 微调 。 后 续 OpenAI 发 布 的 基于 
GPT-3.5 及 GPT-4 的 ChatGPT， 因 其 仅 依靠 对 话 而 无 需 任 何 代码 的 使 用 形式 ， 受 到 了 广泛 的 
关注 。 尽 管 更 多 技术 细节 没有 公布 ， 但 通过 GPT-4 在 各 项 任务 中 取得 的 优异 成 绩 及 对 比 先 
前 版 本 取得 的 显著 进步 ， 尤 其 是 其 在 AP 心理 学 测验 中 取得 了 5 分 的 成 绩 (Achiam et al.,2023), 
使 其 生成 非 认 知 项 目的 表现 令 人 期 待 。 此 外 ，GPT-4 同样 有 优秀 的 理解 与 生成 中 文 的 能 

鉴于 国内 相关 研究 的 空白 ， 验 证 GPT 能 和 否 在 中 文 语 境 下 生成 质量 良好 的 项 目 同样 必要 。 

因此 本 研究 旨 在 基于 最 新 版 本 ChatGPT 生成 中 文 版 的 人 格 项 目 ， 并 初步 探索 使 用 这 些 
项 目 构建 题库 进行 CAT 的 可 能 性 并 检验 其 性 能 ， 以 期 最 终 建立 一 个 质量 良好 的 计算 机 自 适 
应 题库 。 鉴 于 相关 和 领域 探索 仍 处 于 起 步 阶段 ， 本 研究 将 参考 前 人 范式 ， 继 续 以 人 格 特质 中 
最 被 广泛 使 用 的 大 五 人 格 (John et al.,2008) 作 为 项 目 生 成 目标 ， 又 由 于 经 典 的 CAT 需 满足 单 
一 的 测量 目标 ， 因 此 将 生成 情绪 稳定 性 Cemotional stability， 简 称 ES) 维度 的 项 目 确认 为 
最 终 的 生成 任务 。 一 方面 因为 ES 受到 了 社会 越 来 越 广泛 的 关注 ， 另 一 方面 其 在 组 织 管理 、 
心理 健康 、 学 校 教育 、 决 策 行为 等 方面 都 有 重要 作用 ， 被 认为 是 心理 健康 的 最 重要 的 预测 


指标 (Bajaj et al., 2019; Bec & Becken, 2021; Margetić et al., 2022; Park et al., 2022; Wettstein et 


al., 2021). 
2 方法 


2.1 测量 工具 

为 了 让 ChatGPT 生成 符合 要 求 的 项 目 ， 我 们 使 用 中 文 进行 了 一 系列 的 提示 工程 (prompt 
engineering): (1) ib GPT 扮演 经 验 丰 富 的 心理 学 家 ; (2) 为 其 介绍 国内 外 知名 学 者 对 于 情 
绪 稳 定性 的 定义 ; (3) 描述 ES 与 大 五 人 格 模型 的 关系 ， 并 以 此 介绍 ES 作为 一 种 人 格 特质 
常常 通过 大 五 人 格 测验 中 的 神经 质子 维度 进行 测量 ， 由 此 向 GPT 提出 要 参考 已 有 项 目 来 制 
定 全 新 的 测量 项 目 这 一 任务 ; (4) 为 GPT 详细 规定 制定 项 目 过 程 中 必须 遵循 的 基本 原则 ， 


项 
包括 原创 性 (避免 语义 过 于 相似 )、 避 免 重 复 (新 项 目 间 及 与 参考 项 目 间 的 重复 )、 明 确 测 


la 


目标 “情绪 稳定 性 )、 丰 富 的 项 目 形式 (避免 项 目 在 结构 上 过 于 相近 )、 多 样 性 与 全 面 性 


等 。 尤 其 最 后 一 点 值得 注意 ， 该 原则 源 自前 人 研究 提出 的 GPT 生成 项 目 存 在 ' 


—— 


震 境 上 过 于 相 


似 的 问题 (Lee et al., 2023)， 因 此 在 阐述 该 规则 时 ， 研 究 者 应 当 为 GPT 提供 与 测验 目标 相关 


的 尽 可 能 多 的 情境 及 相关 


因素 作为 辅助 ， 这 些 解释 有 助 于 提高 生成 项 目的 质量 (Lampinen et 


al., 2022); (5) 最 后 ， 为 GPT 逐次 提供 不 同 的 大 五 人 格 问卷 中 测量 ES 的 项 目 、 指 导语 与 计 


分 方式 作为 参考 而 非 模 


仿 模板 )， 并 以 此 要 求 其 制定 出 等 同 数量 的 项 目 〈 含 计 分 方式 )。 


在 这 个 过 程 中 ， 如 奉 GPT 生成 了 明显 不 符合 制定 规则 的 项 目 ， 如 完全 照搬 了 参考 项 目 或 与 


先前 制定 的 项 目 重复 ， 则 


由 
Tn 


新 制定 该 批 次 项 目 


可 以 提示 GPT 再 次 回顾 制定 项 目 必须 遵守 的 基本 原则 ， 并 完善 或 


根据 上 述 步 又 ， 我 们 得 到 了 GPT 制定 的 114 道 测量 情绪 稳定 性 的 项 目 ， 然 后 邀请 10 位 


心理 学 专业 的 研究 生 对 项 目 


的 语法 与 内 容 有 效 性 进行 判断 。 根 据 结 果 ， 首 先 和 吻 除了 1 道 表 


述 不 当 的 项 目 ， 接 着 关 导 


内 容 有 效 性 ，10 位 专家 对 每 个 项 目 代表 情绪 稳定 性 这 一 人 格 特质 


的 程度 进行 4 点 评分 。 根 据 评 分 结果 ， 计 算 了 修正 后 的 kappa 系数 (k*; Polit et aL, 2007)， 按 


照 Polit 等 人 的 评估 标准 ， 


准 的 项 目 被 剔除 ， 最 终 保 


另外 我 们 选择 了 4 个 


质 ) 的 项 目 加 入 到 施 测 项 目 


等 ，2011)，BFI-2 中 文 


al., 2003) 与 IPIP-BFAS 的 


一 般 认为 kK 大 于 0.74 的 项 目 属于 优质 项 目 ， 因 此 所 有 不 符合 该 标 


留 了 75 道 项 目 以 进行 正式 施 测 。 值 得 一 提 的 是 ， 这 75 道 项 目 没 


有 经 过 任何 人 为 的 修改 或 编辑 ， 纯 粹 是 由 GPT 生成 的 。 


已 被 广泛 使 用 的 大 五 人 格 量 表 中 共计 42 道 测量 情绪 稳定 性 (神经 
中 。 其 中 包含 中 国 大 五 人 格 问 卷 简 式 版 的 8 题 CCBF-PI-B; Es 


版 的 12 题 (Zhang et al., 2022)， 翻 译 后 的 TIPI-10 的 2 题 (Gosling et 


20 (DeYoung et al., 2007)。 在 本 研究 中 ， 这 四 个 量 表 的 情绪 稳定 


性 维度 的 Cronbach’s a 分别 为 0.921, 0.935, 0.799, 0.955. 


题库 中 的 项 目 共 包 含 


2.2 被 试 


多 种 计 分 方式 ， 每 个 项 目 保持 原 有 计 分 方式 不 变 。 


本 研究 包含 3 个 样本 数据 。 主 要 的 样本 1 是 对 117 道 情绪 稳定 性 项 目 进行 了 方便 抽样 ， 


共 获得 有 效 数据 479 人 ( 


N 


其 中 男性 163 人 )， 平 均 年 龄 为 22.82 岁 (SD=6.52)。 另 外 ， 本 研究 


还 分 别 单独 施 测 了 CBF-PI-B 与 BFI-2 中 文 版 的 情绪 稳定 性 项 目 以 进行 跨 样 本 的 信 度 比较 ， 


获得 的 有 效 样本 分 别 记 为 


样本 2 与 样本 3。 样 本 2 共 包 含 2484 人 “男性 820 人 )， 样 本 3 共 


包含 平均 年 龄 为 28.58 (SD=10.58) 的 655 人 (男性 197 AD. 


2. 3 分 析 方 法 


在 进行 CAT 前 ， 首 先 需 要 得 到 质量 良好 的 题库 。 为 方便 表述 ， 本 研究 将 已 有 量 表 的 42 
个 项 目 组 成 的 题库 记 为 经 典 题 库 ，GPT 生成 的 75 个 项 目 记 为 GPT 题库 ， 并 分 别 对 两 个 题 
库 在 样本 1 上 的 数据 进行 主 成 分 分 析 与 单 维 性 检验 、IRT 模型 选择 、 项 目 分 析 以 及 题库 整体 
言 息 量 与 边际 信 度 的 分 析 ， 以 此 对 两 个 题库 的 质量 进行 检验 与 比较 ， 筛 除 掉 不 符合 要 求 的 


。 再 将 最 终 保留 的 所 有 项 目 结合 形成 总 题库， 并 按照 上 述 步骤 再 次 对 其 质量 进行 检验 ， 


项 目 


以 期 获得 一 个 更 丰富 的 终 版 题库 ， 并 验证 两 种 来 源 的 项 目 组 成 题库 的 可 结合 性 。 之 后 ， 本 
研究 将 最 终 保 留 的 3 个 题库 进行 模拟 CAT， 一 方面 进一步 比较 GPT 制定 的 项 目 与 经 典 项 目 
的 性 能 优 务 ， 另 一 方面 验证 CAT 相 较 于 传统 测验 的 性 能 提升 。 有 具体 步骤 如 下 : 
2. 3. 1 主 成 分 分 析 与 单 维 性 检验 

首先 为 保证 题库 的 质量 ， 与 测量 目标 相关 性 低 的 项 目 应 删除 ， 因 此 需要 对 题库 进行 主 
成 分 分 析 (PCA)， 删 除 在 第 一 主 成 分 载荷 小 于 0.4 的 项 目 。 

接着 对 保留 的 项 目 进 行 单 维 性 检验 ， 单 维 性 是 项 目 反 应 理论 的 前 提 假 设 之 一 
生 因素 分 析 (EFA) 中 ， 第 一 特征 值 与 第 二 
特征 值 比值 大 于 4 且 第 一 因子 解释 方差 大 于 20%， 则 可 以 认为 项 目 满足 单 维 性 假设 (Reckase， 


= 


(Hambleton et al., 1991)， 而 已 有 研究 表明 ， 在 探索 ; 


1979; Andrich, 1996; Reeve et al., 2007). 
2.3. 2IRT 模型 选择 
因 本 研究 的 项 目 均 为 多 级 计 分 ， 可 选 的 RT 模型 主要 有 拓 广 分 部 评分 模型 (GPCM; 


Muraki, 1992) 与 等 级 反应 模型 (GRM; Samejima, 1969)， 因 此 本 研究 将 比较 两 个 模型 的 拟 合 


指数 ， 主 要 是 AIC(Akaike, 1974) 与 BIC(Schwarz, 1978)， 选 择 拟 合 更 优 的 模型 进行 后 续 的 参 
数 估计 。 
2. 3. 3 项 目 分 析 


ie ff (word embedding) 是 NLP 模 型 的 重要 部 分 ， 其 表现 出 的 一 致 、 普 遍 的 性 别 偏见 引 


发 了 研究 者 的 关注 (Gonen & Goldberg, 2019; Lee et al., 2023)。 词 租 入 指 将 每 个 单词 表示 成 
定 维度 的 向 量 ， 在 词 向 量 空间 中 ， 不 同 词 之 间 的 关系 可 以 用 这 些 词 向 量 的 差异 来 捕 玫 
(Bolukbasi et al., 2016; Caliskan & Lewis, 2020)。 现 实 中 的 一 些 刻板 印象 ， 就 可 能 导致 词 移入 
技术 错误 地 捕获 了 这 些 偏见 (Garg et al.,2018)。 为 避免 性 别 偏见 对 ES 测量 引起 的 系统 差异 ， 
我 们 将 进行 项 目 功能 差异 检验 (Differential item functioning，DIF)。 当 来 自 不 同 群 体 的 受 测 
者 在 匹配 项 目 欲 测量 的 潜在 特质 水 平 后 ， 仍 在 该 项 目 上 表现 出 不 同 的 统计 特性 ， 那 么 就 说 
明 这 个 项 目 存 在 了 DIF(Zumbo, 1999)。 本 研究 采用 逻辑 回归 的 方法 来 检验 是 否 存在 性 别 引 


2011)。 其 计算 公式 如 下 : 


McFadden’s R2=1 - 


模型 1: 


起 的 DIF， 当 McFadden’s R? 大 于 0.02 时 ， 表 明 该 项 目 存在 DIFE， 需 要 考虑 删除 (Choi et al., 


InL 
InLo 


logit P (ui 2k)=ou+B1*0 


模型 2: logit P (ui Sk)=axtBi*O+Bo* VE Hl) 


模型 3: logit P (ui Sk)=out+Bi*O+Bo* VEGI +B3*0* PE] 


k 


Lo 代表 基线 模型 的 似 然 值 ，L 代表 增加 预测 变量 后 模型 的 似 然 值 。P(ui Sk) 


对 于 第 i 个 项 目 ， 作 答 为 第 k 个 及 更 高 水 平 的 选项 的 累积 概率 (1 二 k 志 项 目 总 选项 数 )，a 


代表 回归 模型 的 截 距 ，B 则 代 


绪 稳定 性 )。 当 检验 一 致 性 DIF 时 ， 模 型 1 便 是 基线 模型 ， 模 型 2 为 增加 预测 变量 后 的 模型 ; 
检验 非 一 致 性 DIF 时， 模型 2 是 基线 模型 ， 而 模型 3 则 为 增加 预测 变量 后 的 模型 。 
质量 的 重要 指标 : 区 分 度 指 项 目 对 不 同 能 力 水 平 的 被 试 


男 外 项 目 区 分 度 也 是 评估 项 目 


表 回 归 系 数 ，6 代表 项 目 欲 测量 的 特质 水 平 ( 本 研究 中 即 为 情 


的 鉴别 力 ， 其 数值 越 大 代表 能 更 好 区 分 不 同 能 力 水 平 的 被 试 。 


2. 3.4 题库 信息 量 与 边际 信和 度 


项 目 信息 量 代 表 项 目 在 订 


FE 价 被 试 特质 水 平时 提供 信息 的 确定 性 水 平 ， 其 值 越 大 ， 表 明 


项 目的 可 靠 性 越 高 。 而 测验 信息 上 


成 反比 。 计 算 公 式 如 下 : 


其 中 9 代表 被 试 的 潜在 特质 水 平 ， 
数 ，I( 8 ) 表 明 第 i 个 项 目 对 于 特质 水 平 为 6 的 受 测 者 提供 的 信息 量 。 


[m 


Ti 


SE(0)— 


是 所 有 测验 项 目 信息 量 之 和 ， 其 值 的 平方 与 测验 标准 ; 


Ii(9) 


整个 测验 整体 的 可 靠 性 有 研究 者 使 月 


本 研究 中 即 为 情绪 稳定 性 水 平 ，m 为 测验 的 项 目 总 


边际 信和 度 (MR) 来 表示 (Liu, 2022; Xu et al., 2020), 


其 通过 所 有 受 测 者 的 平均 测量 标准 误 计 入 


sE(0) 3 


i21 SE(01) 
N 


得 到 。 公 式 如 下 : 


MR=1 - SE? 


其 中 N 代表 受 测 者 总 人 数 ，i 代表 第 i 个 受 测 者 ，SE(0i) 代 表 第 i 个 受 测 者 在 最 终 估 计 9 


时 的 测量 标准 误 。 


2. 3.5 模拟 CAT 


在 得 到 最 终 确立 的 题库 后 ， 根 据 479 位 受 测 者 在 全 部 项 目 上 的 真实 作答 情况 分 别 进行 


基于 三 个 题库 的 模拟 CAT. CAT ! 


H 


D 


— 


使 用 的 选 题 策略 采用 目前 最 广泛 使 用 的 最 大 信息 量 法 


(MEFED， 能 力 估计 方 


所 有 项 目的 规则 ， 将 该 条 件 下 
即 当 能 力 估计 的 标准 误 达 到 特定 值 时 才 停 止 测验 (本 研究 采 月 


规则 ， 


j 期 望 后 验 佑 


YAK 


yz 


(=. 


到 的 全 


v7 


采用 
日 固定 测量 精度 的 


HW bas fis BE 


止 规则 方面 ， 首 先 
RE, RERNA 


计 法 (EAP)。 终 


E 力 值 视 为 能 


=0.8/0.85/0.90/0.95 对 应 的 SE =0.447/0.387/0.316/0.224， 以 及 对 四 个 已 有 测验 实际 测量 对 应 


的 SE= 0.34/0.27/0.46/0.21)， 通 过 比较 3 个 题库 在 不 同 终止 条 件 下 所 需 的 项 目 数 
计 的 标准 误 以 及 与 能 力 真 值 的 相关 系数 等 ， 来 考察 其 CAT 性 能 ， 接 着 
止 规则 ， 即 作答 的 项 目 数 量 达到 规定 值 后 便 停止 测验 (长 度 对 应 四 个 已 有 量 
目的 数量 =12/8/20/2)， 同 时 估计 出 被 试 以 传统 测验 形式 分 别 作答 4 


力 值 与 测量 误差 ， 比 较 3 个 题库 CAT 与 传统 测验 形式 下 的 测量 误差 、 边 际 


E. 
EIS 


能 力 估 


j 定 长 的 终 


> RIX) 


ade PIE ES 项 


^ E 


AY ES 项 目 时 的 能 
言 度 以 及 能 力 的 


相关 系数 等 ， 接 着 


ish 


进行 CAT 的 可 行 性 


效 度 是 CAT 性 


E， 以 及 CAT 相 较 了 


PA 2. 3 在 传统 测验 上 的 结果 进行 信 度 比较 ， 多 方 


用 探索 GPT 题库 


能 另 一 


要 指标 (X 


有 当 CAT R$ 


传统 测验 形式 的 性 能 提升 。 


u et al., 2020)， 本 研究 将 效 标 效 度 作为 参考 指标 ， 只 


ZN 


估 结 果 与 校 标量 表 的 测量 结果 相似 时 ， 才 能 认为 CAT 是 有 效 的 。 本 研究 将 


CBF-PI-B、BFI-2、TIPI、BFAS 中 的 ES 维度 作为 校 标 ， 分 别 计算 被 试 在 三 个 题库 中 作答 所 


2. 4 研究 工具 


有 项 目 后 的 能 力 估 计 值 与 这 4 个 上 


ELE 


EX 


]3& 


本 研究 采 
EB, REXA 


H4 
使 


] mirt 包 进 行 IRT 模型 选择 、 项 


于 OpenAI 于 2023 4 
H SPSS 26.0 进行 主 成 分 分 析 和 单 维 性 检验 ， 
目 区 分 度 分 析 、 


上 得 分 的 相关 系数 ， 以 此 来 验证 3 个 题库 的 效 度 。 


E 11 月 初 发 布 的 GPT-4 Turbo 版 本 的 ChatGPT 进行 项 
其 余 分 析 则 采用 R 软件 包 ， 如 
题库 信息 量 计算 等 ，lordif 包 检验 项 目 功 


能 差异 ， 最 后 catR 包 进 行 模拟 CAT。 


3 研究 结果 
3.1 题库 构建 
3.1.1 单 维 性 检验 


分 别 对 两 个 题库 的 项 目 进行 主 成 分 分 析 (PCA)， 结 


于 0.4 ¢ 


接着 对 经 典 题库 、GPT 题库 分 别 i 


详情 可 见 图 


1), A 


表明 所 有 项 目 在 第 一 主 成 分 上 的 


此 所 有 项 目 均 得 以 保留 。 


其 结果 为 0.979、0.986， 证 实 了 数 


了 因子 分 析 


的 适 


E 


H3 


0.4， 经 典 题库 的 多 


P 


Wo 


由 因 式 分 解 (PAP) 以 及 最 优 斜 交 法 进行 了 EFA， 结 果 显 示 所 有 因 


特征 值 分 别 为 22.7$，2.29， 比 值 为 9.92， 且 第 一 因子 解释 方差 


Ar — 


\ 3B 


tJ — 


fT f KMO 测试 


^» PN 


性 (x? (861) = 17662.03, p < 0.001; X2 (2775) = 35225.09, p < 0.001). 


子 载荷 均 大 于 


达到 53.28%, GPT 


题库 的 第 一 、 


第 二 特征 值 分 别 为 42.93，1.97， 比 值 为 21.78， 第 一 因子 


解释 方差 达到 56.79%， 因 此 表明 两 个 题库 中 的 项 目 均 满足 单 维 性 假设 。 
© 经 典 题库 o GPT 题库 
0.9 
oo © 
e Doo 
Q [o o 9 o o 
0.8 - odo Go Je oe w e$ o % DA OP s o 
e m e i 909, hi o P00”. 0 oo © 
0.7 @ o o 
6 el 96 9 6 o 99 ]|9 
0.6 o » id 
.DO o 
0.5 a hd 
n oo 
K 04 
0.3 
0.2 
0.1 
0 
0 9 18 27 6 45 54 63 72 81 90 99 108 117 
项 目 
图 1 两 个 题库 项 目的 因子 载荷 


3. 1. 项 目 反 应 理论 模型 选择 
结果 如 表 1 所 示 ， 两 个 题库 在 GRM 拟 合 中 的 AIC 与 BIC 均 更 小 ， 表 明 其 拟 合 效果 更 


优 ， 因 此 GRM 被 用 于 后 续 的 分 析 。 
表 1 模型 拟 合 指标 值 

模型 AIC BIC Loglik 
经 典 题库 

GRM 47240.97 48167.08 —23398.48 

GPCM 47820.24 48746.35 —23688.12 
GPT 题库 

GRM 74640.70 76242.64 —36936.35 

GPCM 75556.12 77158.05 —37394.06 


3.1.3 项 目 分 析 


项 目 


分 别 对 两 个 题库 再 


因而 均 得 以 保留 。 


次 拟 合 GRM 模型 ， 结 果 发 现 两 个 题库 中 所 有 项 目的 区 分 度 均 大 于 


较 优 (Liu, 2022)， 因 


功能 差异 检验 结果 显示 所 有 项 目 McFadden’s R? 值 均 小 于 0.02， 表 明 项 目 不 存在 性 
别 引 起 的 项 目 功能 差异 ， 


一 般 认 为 区 分 度 大 于 0.8 的 项 目 此 低 于 该 标准 的 项 目 需要 删除 。 


0.8 


(详情 可 见 图 2)， 均 值 分 别 为 2.27(SD=0.51)、2.44(SD=0.58)。 难 度 区 间 则 分 别 为 [- 3.1, 2.2] 
与 [- 4.3, 2.1 ]， 表 明 两 个 题库 难度 覆盖 范围 较 广 。 总 的 来 说 ， 两 个 题库 质量 均 较 高 ，GPT 
生成 项 目的 区 分 度 总 体 上 甚至 略 优 于 已 有 的 项 目 ， 并 有 更 广 的 难度 分 布 。 


@ 经 典 题库 o GPT 题 库 
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图 2 两 个 题库 中 项 目 区 分 度 


3.1.4 题 库 信 息 量 与 边际 信和 度 

本 研究 中 两 个 题库 的 测验 信息 量 及 其 标准 误 如 图 3 所 示 ， 一 般 认 为 不 高 于 0.39 是 低 测 
量 标准 误 的 界限 CXu et al., 2020)， 总 的 来 说 两 个 题库 均 能 为 大 部 分 受 测 者 提供 较 高 的 信息 量 
及 较 低 的 测量 误差 ， 仅 对 于 情绪 稳定 性 水 平 极 高 的 被 试 有 一 定局 限 。 此 外 ， 两 个 题库 的 边 
际 信 度 如 图 4 所 示 ， 其 平均 值 分 别 高 达 0.96，0.98， 表 明 两 个 题库 整体 可 靠 性 均 很 高 。 相 较 
而 言 ，GPT 题库 整体 质量 较 经 典 题库 更 高 ， 尤 其 对 于 特质 水 平 较 高 的 受 测 者 ， 在 GPT 题库 
的 测量 标准 误 仍 处 于 低 标准 内 ， 并 有 更 高 的 信 度 。 
3. 1.5 总 题库 构建 

将 两 个 题库 中 最 终 保留 的 共计 117 道 题 组 成 总 题库 。 对 总 题库 的 项 目 进 行 主 成 分 分 析 ， 
同样 得 到 所 有 项 目 在 第 一 主 成 分 载荷 量 均 大 于 0.4. (详情 见 附录 图 6). KMO 测试 结果 为 
0.986(X2 (6786) = 57274.54, p < 0.001)。 接 着 采用 与 前 文 相同 的 方法 进行 了 EFA， 结 果 仍 显 
示 所 有 因子 载荷 均 大 于 0.4， 第 一 、 第 二 特征 值 分 别 为 62.98，4.47， 比 值 为 14.10， 第 一 因 
子 解释 方差 达到 53.83%， 因 此 表明 总 题库 中 117 个 项 目 满足 单 维 性 假设 。 

拟 合 指标 结果 同样 表明 GRM 更 优 (详情 见 附录 表 8)， 因 此 再 次 使 用 该 模型 估计 项 目 
参数 ， 结 果 表 明 所 有 项 目 区 分 度 仍 均 高 于 0.8， 均 值 为 2.25(SD=0.50)〔 详 情 见 附录 图 7)。 
最 后 对 总 题库 的 信息 量 、 测 量 标准 误 以 及 边际 信 度 进行 计算 〈 详 情 见 附录 图 8、 图 9)， 总 
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体 上 看 总 题库 相 较 于 经 典 题库 、GPT 题库 有 更 小 的 测量 误差 与 更 高 的 可 靠 性 ， 即 使 对 于 情 


绪 稳定 性 高 的 个 体 也 能 提供 较为 精确 的 测量 结果 ， 
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图 3 经 典 题库 〈 左 ) 5 GPT 题库 
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CA) 的 信息 量 及 标准 误 


其 平均 边际 信 度 更 是 高 达 0.99。 


图 4 经 ! 


3. 2 模拟 CAT 
3. 2. 1 定 测验 精度 条 件 下 3 个 题库 模拟 CAT 的 表现 


表 2 显示 了 3 个 题库 在 不 同 固定 精度 的 停止 规则 下 模拟 CAT 的 结果 。 可 以 发 现 ， 即 使 


Lele (AL) 与 GPT 题 


在 SE(0)x0.447 的 情况 下 ， 在 3 个 题库 中 均 仅 平均 使 月 


E CA) 的 边际 信 度 


日 不 到 三 个 项 目 便 能 使 能 力 佑 计 值 与 真 


025 


020 


SE(9) 


值 的 相关 系数 高 达 0.9 以 上 (n=479, p 三 0.001)， 但 此 时 边际 信和 度 不 够 理想 。 一 般 认为 信和 度 系 
数 达 到 0.85 表明 测验 具有 较 高 的 可 靠 性 ( 张 龙 飞 等 ，2020; May et al., 2006)。 而 3 个 题库 达 
到 0.87 的 边际 信 度 仅 需 要 使 用 3.06-3.77 个 项 目 ， 即 使 0.91 的 信 度 也 仅 需 要 4.79-5.87 个 项 
目 ， 如 果 要 求 更 高 的 可 靠 性 ， 则 作答 项 目 数 将 是 之 前 的 一 倍 以 上 ， 需 要 10.11-12.90 题 ， 但 
此 时 边际 信和 度 可 以 达到 0.95 且 与 能 力 真 值 的 相关 系数 达到 0.97 以 上 (n=479, p<0.001). 为 
进一步 直观 体现 CAT 的 效率 ， 表 3 对 比 了 三 个 题库 在 CAT 方式 下 ， 达 到 传统 测验 的 测量 误 
差 下 所 需 题 数 ， 总 体 上 节省 了 24.4%-47.5% 的 项 目 ， 仅 相 较 TIPI 的 2 道 项 目 略 有 增加 ， 这 
可 能 是 由 于 CAT 在 测试 初始 阶段 由 于 无 法 对 受 测 者 的 能 力 进行 估计 而 只 能 在 题库 中 随机 选 
目 


通过 比较 经 典 题库 、GPT 题库 的 结果 ， 可 以 发 现在 相同 停止 精度 下 ， GPT 制定 的 题库 
所 需 的 测验 题 数 均 少 于 由 经 典 项 目 组 成 的 题库 ， 且 其 边际 信 度 及 与 能 力 真 值 的 相关 系数 也 
与 经 典 题库 的 结果 相似 甚至 略 优 。 同 时 ， 达 到 传统 测验 精度 的 情况 下 ，GPT 题库 所 需 项 目 
数 显著 低 于 经 典 题库 ， 以 达到 BFAS 量 表 的 精度 为 例 ，GPT 题库 相 较 经 典 题库 显著 减少 了 
23.13% 的 项 目 数 (ta78=17.20, p<0.001, Cohen's 4=0.79)。 而 总 题库 大 体 上 与 GPT 题库 的 CAT 
的 性 能 相似 。 

综 上 ， 在 一 定 测量 精度 的 条 件 下 ，GPT 题库 的 CAT 性 能 甚至 优 于 经 典 题库 ， 同 时 CAT 
的 形式 相 较 于 传统 测验 提升 了 测验 效率 ， 在 保证 测量 准确 的 情况 下 进一步 减少 了 测验 所 需 
的 项 目 数量 。 
3. 2. 2 定 测验 长 度 条 件 下 3 个 题库 模拟 CAT 的 表现 
表 4、 表 5 分 别 展示 了 当 以 传统 测验 的 题 数 为 CAT 的 终止 条 件 时 ，3 个 题库 CAT 相 较 
于 传统 测验 的 测量 误差 降低 与 边际 信 度 提高 的 情况 。 基 于 经 典 题库 的 CAT 较 除 TIPI 外 的 传 


统 测验 显著 降低 了 13.83%-22.69% 的 测验 误差 (p<0.001, Cohen's dq>1)， 显 著 提升 了 1.28%- 


5.40% 的 测量 信和 度 (p<0.001, Cohen's 必 D)， 仅 较 TIPI 没 有 显著 差异 (p>0.05)。 而 GPT 题库 、 

总 题库 的 CAT 均 较 4 个 传统 测验 有 显著 的 性 能 提升 ， 分 别 降低 了 6.50%-31.44% 与 7.91%- 
31.65% 的 测量 误差 (p<0.001)， 提 高 了 2.20%-7.14% 与 2.30%-7.17% 的 测验 信和 度 (p<0.001)。 表 
6 则 展示 了 3 个 题库 CAT 较 不 同样 本 中 两 个 传统 测验 的 性 能 提升 情况 ， 可 以 发 现 总 体 上 与 
在 样本 1 中 的 比较 结果 相近 ， 即 使 相对 于 更 大 样本 量 的 传统 测验 ，3 个 题库 的 CAT 均 有 显 


著 的 信 度 提高 (p<0.001, Cohen's d>1). 


表 2 不 同 精度 停止 条 件 下 的 结果 
项目 数 量 nU 5 Zy 
题库 终止 规则 SHERUAR ean SE(0 ) 边际 信 度 。 能 力 相关 系数 
经 典 题库 
全 部 42 0.00 0.15 0.98 .986*** 
SE(0) <0.447 2.60 0.88 0.41 0.83 900*** 
SE(0) <0.387 | 3.77 1.73 0.36 0.87 9299 
SE(0) 0.316 ^ 5.87 3.23 0.30 0.91 950 
SE(0) 0.224 12.90 . 477 0.22 0.95 978 
GPT 题库 
全 部 75 0.00 0.09 0.99 992*## 
SE(0) 0.447 . 2.440 1.06 0.40 0.84 92 pe 
SE(0)-:0.387 | 3.06 1.18 0.36 0.87 930*** 
SE(0) <0.316 ^ 4.90 3.76 0.30 0.91 9539 
SE(0) 0.224 10.11 6.94 0.22 0.95 976** 
总 题 -F 
全 部 117 0.00 0.08 0.99 1.00 
SE(0) 0.447 | 242 0.96 0.39 0.84 916 
SE(0) 0.387 . 3.15 1.39 0.36 0.87 9326 
SE(0) 0.316 — 4.79 3.30 0.30 0.91 94g 
SE(0) <0.224 10.14 838 0.22 0.95 97pee* 
TE: *** 代 表 p<0.001， 下 同 
表 3 达到 传统 测验 精度 所 需 项 目 数 
测量 误差 传统 测验 长 度 “经典 题库 长 度 ” GPT 题库 长 度 “总 题库 长 度 
SE(CBF-PI-B) =0.34 8 5.07 4.18 4.20 
SE(BFI-2) =0.27 12 8.44 6.86 7.08 
SE(TIPI) =0.46 2 2.51 2.27 2.27 
SE(BFAS) =0.21 20 15.13 11.63 11.52 


低 了 测量 误差 (t478= 26.38. 30.35. 12.07. 37.13, p<0.001) 并 显著 提高 了 测量 


22.53、24.68、11.13、29.28, p<0.001)， 尤 其 是 在 测验 长 度 等 于 TIPI 的 2 题 的 情 ; 


题库 将 经 典 题 库 相 较 于 传统 测验 的 负 提 升 转化 为 了 


最 后 我 们 比较 了 在 相同 测验 长 度 条 伯 
估计 值 间 的 相关 系数 以 及 与 能 


此 外 ， 通 过 比较 可 以 发 现 ，GPT 题库 相 较 于 经 典 题库 ， 在 同 档 


的 测验 长 度 下 ， 显 著 降 


EGET Tf as 


CAT 测 量 的 准确 


fo t 


真 值 的 相关 系数 并 以 热力 
生 与 稳定 性 。 从 图 5 可 以 看 出 ，3 个 题库 在 不 同 测 
结果 相关 性 从 0.79-0.97 不 等 〈 均 值 =0.90)。 且 3 个 题库 下 能 力 估计 值 与 能 力 真 值 的 相关 性 
均 比 相同 长 度 下 传统 测验 能 力 估计 值 与 能 力 真 
确 性 较 高 。 另 外 ， 我 们 不 


pF 


E FE (tan 


总 体 性 能 略 


直 的 相关 更 高 ， 以 上 均 表 明 CAT 测验 形式 准 


ERIL, GPT 题库 得 到 的 能 力 估计 值 与 能 力 真 值 的 相关 系数 普遍 


uf, GPT 


ULT GPT 


FF 下， 传统 测验 方法 以 及 3 个 题库 CAT 方法 下 能 
图 的 形式 进行 展示 ， 来 直观 考察 
验 长 度 下 ， 与 传统 测验 的 


高 于 经 典 题 库 ， 由 此 说 


FE 明了 GPT 题库 相 较 于 经 


项 目 组 成 的 题库 在 准确 测量 


上 体现 出 的 优 


越 性 。 
表 4 相同 测验 长 度 时 不 同方 法 的 测量 误差 
NET ecd 测量 误差 
测验 方法 2 p du M(SD) SE gi» 分 Roues 
CBF-PI-B 8 0.08 (0.87) 0.34 (0.03) 
经 典 题库 8 0.03 (0.98) 0.27 (0.03) 22.69% 48.06*** 2.20 
GPT 题库 8 0.06 (0.98) 0.24 (0.03) 31.44% 72.67*** 3.32 
总 题库 8 0.06 (0.99) 0.23 (0.03) 31.65% 68.15*** 3.11 
BFI2 12 0.06 (0.98) 0.27 (0.02) 
经 典 题库 12 0.05 (0.99) 0.23 (0.03) 15.2496 43.73*** 2.00 
GPT 题库 12 0.06 (1.00) 0.20 (0.03) 25.51% 65.97*** 3.01 
总 题库 12 0.07 (0.98) 0.19 (0.03) 26.65% 70.91 *** 3.24 
TIPI 2 0.08 (0.87) 0.46 (0.05) 
经 典 题库 2 0.06 (0.92) 0.46 (0.05) -0.81% 21.27 -0.06 
GPT 题库 2 0.03 (0.94) 0.43 (0.05) 6.50% 10.78*** 0.49 
总 题库 2 0.08 (0.89) 0.42 (0.05) 7.91% 13.43*** 0.61 
BFAS 20 0.05 (1.00) 0.21 (0.03) 
经 典 题库 20 0.06 (0.99) 0.19 (0.02) 13.8396 41.10*** 1.88 
GPT 题库 20 0.06 (1.01) 0.16 (0.03) 26.06% 72.3] *** 3.30 
总 题库 20 0.06 (1.01) 0.16 (0.02) 27.01% 78.38*** 3.58 
K 5 相同 测验 长 度 时 不 同方 法 的 测量 信 度 
JIA PS 测量 信 度 
人 Cohen'sd 
CBF-PI-B 8 0.88 (0.03) 
经 典 题库 8 0.93 (0.02) 5.40% 41.97*** 1.92 
GPT 题库 8 0.94 (0.02) 7.14% 61.99*** 2.83 
总 题 8 0.94 (0.02) 7.17% 57.68*** 2.64 
BFI-2 12 0.93 (0.02) 
经 典 题库 12 0.95 (0.01) 2.14% 39.20*** 1.79 
GPT 题库 12 0.96 (0.02) 3.35% 59. e pers 2.63 
总 题库 12 0.96 (0.01) 3.5096 61.47*** 2.81 
TIPI 2 0.79 (0.05) 
经 典 题库 2 0.78 (0.05) —0.4796 -].29 —0.06 
GPT 题库 2 0.81 (0.05) 3.27% 9.8 7*** 0.45 
总 题库 2 0.82 (0.05) 3.9896 1234*** 0.56 
BFAS 20 0.95 (0.02) 
经 典 题库 20 0.97 (0.01) 1.2896 29.9] *** 1.37 
GPT 题库 20 0.97 (0.01) 2.20% 51.91*** 2.37 
总 题 20 0.97 (0.01) 2.3096 48.12*** 2.20 


R 6 跨 样本 下 相同 测验 长 度 时 的 测量 信和 度 


n — 测量 信 度 

eae MSIE M(SD) MR 增加 百分比 t Cohen's d 
样本 2 CBF-PI-B 8 0.88 (0.03) 

经 典 题库 8 0.93 (0.02) 5.39% 3748*** 1.87 

GPT 题库 8 0.94 (0.02) 7.1296 50.83*** 2.54 

总 题库 8 0.94 (0.02) 7.1396 50.66*** 2.53 
样本 3 BFI-2 12 0.93 (0.01) 

经 典 题 库 12 0.95 (0.01) 1.77% 20.16*** 1.21 

GPT 题库 12 0.96 (0.02) 2.98% 3123*** 1.88 

总 题库 12 0.96 (0.01) 3.1396 36.58*** 2.20 
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图 5 不 同 定 长 终止 规则 下 相关 系数 的 热力 图 


3. 2. 3 效 度 验证 
效 度 验证 结果 如 表 7 所 示 ， 从 中 不 难 发 现 3 个 题库 均 与 四 个 校 标量 表 得 分 存在 显著 的 
相关 (p<0.001) 且 相关 系数 均 大 于 0.83， 说 明 3 个 题库 具有 理想 的 效 度 。 
表 7 3 个 题库 校 标 关联 效 度 


测量 误差 CBF-PI-B BFI-2 TIPI BFAS 
经 典 题库 0.832*** 0.913*** 0.860*** 0.914*** 
GPT 题库 0.83] *** 0.9] 7*** 0.861*** 0.918*** 


总 题库 0.836*** 0.92] *** 0.862*** 0.919*** 


4 讨论 


本 研究 旨 在 利用 最 新 版 本 


代 过 程 既 耗 时 
的 途径 。 同 时 


Nie, 2022; Gótz et al., 2023; Lee et al., 2023)， 不 再 
础 以 针对 项 目 开 发 各 


ERIS. 
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与 BFI-2 相关 ， 


成 的 1 万 个 项 目 


同样 地 ， 


选 ， 无 疑 既 繁琐 又 与 利 月 
很 大 程度 上 解决 了 这 一 


于 传统 测验 在 测量 

本 研究 创新 性 地 运 月 
经 验 与 知识 构建 新 项 目 ， 并 
贵 (Gierl et al., 2012)， 而 本 研究 的 方法 为 构建 题库 提供 
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F 务 进行 模型 微调 ， 甚 至 不 再 需要 


究 结 果 对 比 发 现 ， 本 研究 生成 的 项 目 有 更 高 的 效 度 ， 例 如 同村 
维度 下 ，GPT-4 的 相关 系数 0.917 (p<0.001) 远 高 于 前 人 


在 情绪 稳定 性 这 一 
GPT-2 的 0.786 (p<0.001) (Gotz et al., 2023) . 5 


人 工 质量 评判 后 ， 本 看 
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通过 


照 特定 测量 目标 生成 项 目的 具体 过 程 是 复杂 且 模 煌 
因此 后 续 项 目 
法 尽 可 能 生成 结构 效 度 高 的 项 目 


(Hommel et al., 
细 的 定义 ， 以 使 入 
成 和 概念 表征 是 相 和 加 


完 的 探索 可 以 发 现 GPT 


渐 展 现 出 的 对 于 人 工 项 目 编制 的 蔡 代 性 ， 


， 有 60% 与 示例 项 目 
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精度 与 效率 方面 都 有 较 大 的 提升 。 


情绪 稳定 性 的 人 格 项 目 ， 并 
寺 果 可 以 看 出 ，GPT 题库 有 良好 的 质 
题库 则 在 有 足够 效 度 的 同时 ， 相 较 


文 版 计算 机 自 适 应 题 


库 。 传 统 的 项 目 编写 需要 专家 利 


不 断 审查 、 修 改 与 完善 ， 直 至 满足 所 需 的 


质量 标准 ， 


这 


JA 


的 使 用 形式 ， 相 较 于 前 人 所 使 用 的 旧 
要 求 研 究 者 


了 一 种 高 


XH 


经 济 


形式 的 同时 ， 产 生 了 更 优质 的 项 目 。 通 过 
是 将 GPT 生成 的 项 目 


保留 率 达 到 了 65.78%， 而 Gotz 等 人 (2023) 通 过 


一 方面 ，GPT4 产生 的 无 效 ] 


jH ED, 


完全 重复 ， 经 专家 4 


在 生成 非 认 知 项 目 方面 有 


也 提示 着 心理 委 


该 类 方法 有 


的 ， 使 得 


2022)， 


和 相 成 的 ” 


生成 过 程 中 需 


， 正 如 


一 定 的 不 可 了 


版 本 (Hernandez & 
有 扎实 的 NLP 与 机 器 学 习 基 
进行 编程 ， 极 大 降低 了 项 目 开发 者 的 


与 


经 过 


10 次 迭代 生 
查 后 最 终 仅 保留 了 92 个 项 目 。 
中 ， 完 全 与 示例 项 目 重复 的 便 有 
A, RRM HENA 53.4% 获 得 了 专家 对 内 容 有 效 性 的 认可 。 从 成 干 上 万 的 项 目 中 进行 得 
省 时 间 与 人 力 成 本 的 初 囊 相悖， 而 NLP 技术 的 进步 
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巨大 潜力 ， 自 动 项 目 生成 逐 
学 人 的 职责 转变 。 由 于 使 用 GPT 按 
FL E 


要 研究 者 更 关注 对 测量 目标 进行 准 


确 详 


(p.43)。 此 外 ， 不 仅 项 目 质量 仍 需 要 专家 第 


I 定 评判 标准 


Bejar(2013) 提 出 的 那样 “项 目 生 


并 对 生 


成 的 项 目 进行 审核 ， 如 项 目的 内 容 是 否 符 合 测量 目标 、 项 目 是 否 存 在 语法 或 用 词 上 的 错 
误 、 项 目 是 否 存在 偏见 等 等 ， 而 且 标准 化 项 目 生成 的 流程 、 为 GPT 制定 全 面 且 完 善 的 项 目 
生成 原则 、 准 确定 义 与 描述 测量 目标 等 都 是 后 续 研 究 者 需要 努力 的 方向 。 通 过 最 近 OpenAI 
推出 的 允许 用 户 根据 自 定义 规则 创建 专用 版 本 ChatGPT 的 GPTs 功能 ， 可 见 在 通用 大 语言 
模型 的 基础 上 ， 专 业 学 者 利用 知识 与 经 验 定制 个 性 化 、 专 业 化 模型 来 执行 特定 任务 是 必然 
趋势 。 

尽管 本 研究 为 基于 最 新 NLP 技术 的 AIG 与 CAT 结合 提供 了 有 力 证 据 ， 但 仍然 存在 一 
些 局 限 之 处 : 一 方面 ，GPT 生成 的 项 目 仍 存在 一 些 不 足 ， 例 如 缺乏 反 向 计 分 的 项 目 、 项 目 
质量 参差 不 齐 等 ， 另 一 方面 ，CAT 的 相关 算法 是 否 有 更 优 的 选择 也 有 待 商 榨 ， 例 如 基于 
KL 全 局 信息 量 (Chang & Ying, 1996) 的 选 题 法 相 较 于 Fisher 信息 量 可 能 是 更 稳健 的 选择 ， 后 


续 还 可 以 采用 一 些 约束 条 件 控制 项 目的 曝光 率 〈 如 最 大 优先 级 指标 法 ，Cheng & Chang, 


7 


Hx 


2009). 

总 的 来 说 ，NLP 技术 的 发 展 为 非 认 知 项 目的 AIG 及 以 此 为 基础 的 CAT 提供 了 易 上 手 
且 表 现 良好 的 工具 ， 本 研究 利用 了 最 新 版 本 的 ChatGPT， 展 示 了 大 语言 模型 在 计算 机 自 适 
应 题库 生成 中 的 巨大 潜力 与 可 能 性 。 在 未 来 的 研究 中 ，GPT 能 否 应 用 于 更 广泛 测量 目标 的 
项 目 生 成 ， 尤 其 是 针对 一 些 缺 乏 已 有 测量 工具 的 目标 概念 ， 需 要 进一步 探索 ， 同 时 除了 经 
典 的 李 克 特 式 评级 项 目 ， 迫 选 题 (A. Brown & Maydeu-Olivares, 2011) 等 更 丰富 的 测验 形式 能 


人 否 借助 于 GPT 得 到 进一步 的 发 展 也 令 人 期 待 。 
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